Korpusna lingvistika

Korpusna lingvistika je naziv za metodu u lingvističkim istraživanjima u kojoj se koriste veliki uzorci prirodnog jezika (korpusi), bilo govorenog ili pisanog. Korpusi se sastoje od ogromnog broja riječi i njih je u 21. stoljeću moguće automatski pretraživati. Analizom korpusa donose se pouzdani zaključci o frekvenciji upotrebe riječi i izraza, kontekstu upotrebe konstrukcija koje želimo da proučimo, o različitim značenjima jedne riječi, odlikama funkcionalnih jezičnih stilova itd.^[1]^[2] Korpusi se dijele na: opće korpuse, koji se sastoje od tekstova svih funkcionalnih stilova, i specijalizirane korpuse, koji se fokusiraju na uzorke jezika iz jedne epohe, žanra ili određene grupe govornika (npr. korpus jezika djece) ili djela pojedinog pisca.

Primjena korpusa u leksikografiji

Budući da daju pristup velikim uzorcima spontano upotrebljenog jezika, korpusi su danas neizbježan izvor podataka prilikom izrade rječnika. Veliki broj primjera upotrebe koji su dostupni u elektronskoj formi ne samo da olakšava izradu, dopunjavanje i osuvremenjivanje rječnika, već uvečava točnost i preciznost informacija u rječniku. Opći korpusi (koji sadrže više desetina ili stotina milijuna riječi) daju nam uvid u upotrebu i učestalost korištenja riječi, što je posebno važno za opis manje frekventnih riječi, ali i čestih riječi s obzirom na njihova moguća različita značenje ili sintaktičke funkcije. Uz to, mnogi korpusi sadrže i informacije poput mjesta i vremena gdje je tekst nastao, spola osobe koja je autor teksta, funkcionalnog stila kojemu tekst pripada i slične podatke koji mogu biti od koristi leksikografima. Korpusi koji se stalno dopunjavaju (engl. monitor corpora) daju uvid i u nove riječi i izraze i točne načine na koje ih govornici upotrebljavaju.^[3]

Primjena korpusa u sintaktičkim istraživanjima

U izučavanju sintakse, korpusi omogućavaju da se težište u istraživanjima stavi na kvantitativnu umjesto kvalitativne analize. Umjesto subjektivnih procjena prihvatljivosti ili učestalosti određenih sintaktičkih konstrukcija, korpusi daju empirijski uvid u najtipičnije upotrebe i varijacije do kojih dolazi u odnosu na funkcionalni stil i slične varijable.^[3]

Povijest korpusne lingvistike

Začeci korpusne lingvistike bila su popisivanja višestrukih upotreba riječi i izraza u tekstovima. U početku su ovi poslovi bili vezani za popisivanje svih riječi iz Biblije i mjesta u tekstu gde su se te riječi javile. Prve takve konkordanse Biblije datiraju iz XIII. stoljeća i na njima je po pravilu radio veliki broj monaha koji su indekse riječi iz Biblije pravili ručno. Osim Biblije, na isti način su indeksirana i djela pisaca poput Šekspira radi lakšeg proučavanje njihovih opusa; primjer takve konkordanse je A Concordance to Shakespeare Endrua Beketa iz 1787. godine.^[4]

Isusovac Roberto Busa pedesetih je godina XX. stoljeća započeo Index Thomisticus, indeks svih djela Tome Akvinskog, koji je kasnije prenesen na bušene kartice i predstavlja prvi korpus koji se mogao kompjuterski pretraživati i konkordansirati.^[3]^[4]

Veoma važan bio je rad leksikografa, koji su rječnike izrađivali na osnovu primjera stvarne upotrebe jezika. Rad dr. Semuela Džonsona na rječniku engleskog jezika iz 1755. godine oslanjao se na ogroman korpus sastavljen od papirnih traka sa primjerima upotrebe riječi zabilježenih između 1560. i 1660. godine. Oksfordov rječnik engleskog jezika (Oxford English Dictionary) izrađen je na isti način uz pomoć više od tri milijuna papirnih traka.^[4]

Ova metoda korištena je i za potrebe izrade gramatika. Među takvim primjerima su višetomna gramatika Ota Jespersena A Modern English Grammar on Historical Principles (1909–1949), kao i korpus Survey of English Usage (SEU) Corpus na osnovu kojeg je izrađena gramatika A Comprehensive Grammar of the English Language.^[5]^[6]

Još jedan doprinos razvoju pretraživih zbirki dali su knjižničari. Sedamdesetih godina XX. stoljeća knjižničari su osmislili neke sisteme za pretraživanje ključnih riječi u kontekstu radi lakše izrade bibliotečkih kataloga, bibliografija i sl.^[4]

Američki lingvisti strukturalisti zagovarali su korištenje i proučavanje autentičnih primjera jezika u spontanoj upotrebi.^[4] Zbirke uzoraka teksta bile su neizostavne u povijesnoj lingvistici, gdje nije bilo moguće doći do izvornih govornika, recimo srednjovjekovnog engleskog jezika. Zatim, fonetičari i lingvisti koji proučavaju usvajanje jezika kod djece počeli su da koriste korpuse. U usvajanju jezika su šezdesetih godina XX. stoljeća već korišteni transkribirani primjeri upotrebe jezika u govoru djece (CHILDES).^[4]

Korpusna lingvistika je na kratko oslabljena širenjem postavki transformacijsko-generativne gramatike Noama Chomskog. Zbog naglaska na jezičnoj kompetenciji (jezičkoj intuiciji govornika), a ne na performansi (stvarnoj upotrebi jezika), korpusne metode su bile zanemarene u proučavanju jezika od kraja pedesetih do osamdesetih godina XX. stoljeća. Ipak, korpusna lingvistika nije nestala, i šezdesete i sedamdesete godine XX. stoljeća donijele su neke prekretnice u razvoju ovog područja.

Prvi elektronski korpus pisanog jezika, the Brown Corpus, sastavili su šezdesetih godina XX. stoljeća Nelson Frensis i Henri Kučera. Ovaj korpus je prvo zapisan na bušenim karticama, a kasnije je prenesen na magnetne trake.^[4]^[5] The Brown Corpus se sastojao od oko milijun riječi iz tekstova na engleskom jeziku s američkog govornog područja. Materijal je prikupljen 1961. godine iz više različitih jezičnih funkcionalnih stilova i bio je sastavljen posebno za potrebe lingvističke analize. Ovaj korpus je postavio prve standarde u izradi općih korpusa i poslužio je kao model za sastavljanje drugih korpusa. Po ugledu na njega nastao je britanski pandan Lancaster-Oslo/Bergen Corpus (LOB).^[5]

Prvi korpus govornog engleskog jezika izrađen je na Univerzitetu u Edinburgu između 1963. i 1965. godine. Sastojao se od 166.000 riječi.^[4] Između 1975. i 1990. izrađen je korpus govornog engleskog jezika the London-Lund Corpus of Spoken English (LLC) koji je sadržavao pola milijuna riječi.

Sedamdesetih godina XX. stoljeća postepeno se umnožavao broj elektronskih korpusa. Pored engleskog, javljaju se i korpusi na drugim jezicima. Javljaju se i drugačije vrste jezičnih korpusa. Osamdesetih i devedesetih godina XX. stoljeća korpusna lingvistika je doživjela pravi procvat.^[4] Razvoj korpusne lingvistike u ovom periodu omogućili su sve veća dostupnost kompjutora i napredak tehnologije u pogledu kapaciteta i brzine prikupljanja i obrade podataka.

Povezano

Izvori

↑ Kordić, Snježana (1993). „Funkcionalnostilska raslojenost jezika”. u: Andrijašević, Marin; Vrhovac, Yvonne ur. Trenutak sadašnjosti u učenju jezika. Zagreb: Hrvatsko društvo za primijenjenu lingvistiku. str. 129. OCLC 439318422. SSRN 3434564. CROSBI 447527. (NSK). Pristupljeno 2019-05-24.
↑ Taylor, C. (2008). What is corpus linguistics? What the data says, ICAME Journal 32:179–200.
↑ ^3,0 ^3,1 ^3,2 McEnery, T.; Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 ^4,7 ^4,8 O’Keeffe, A.; McCarthy, M. (ur.). (2010). The Routledge Handbook of Corpus Linguistics. Abingdon: Routledge.
↑ ^5,0 ^5,1 ^5,2 Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman.
↑ Meyer, C. F. (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

Literatura

Studies in Corpus Linguistics Arhivirano 2007-02-21 na Wayback Machine-u and English Corpus Linguistics
Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use, Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
McCarthy, D., and Sampson G. Corpus Linguistics: Readings in a Widening Discipline, Continuum, 2005. ISBN 0-8264-8803-X
Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora. Verona: QuiEdit, 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (ed.) Corpus Linguistics 25 Years on. New York/Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
Facchinetti, R. and Rissanen M. (eds.) Corpus-based Studies of Diachronic English. Bern: Peter Lang, 2006 ISBN 3-03910-851-4
Lenders, W. Computational lexicography and corpus linguistics until ca. 1970/1980, in: Gouws, R. H., Heid, U., Schweickard, W., Wiegand, H. E. (eds.) Dictionaries - An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. Berlin: De Gruyter Mouton, 2013 ISBN 978-3-11-214665-1

Vanjske veze

[1] Kordić, Snježana (1993). „Funkcionalnostilska raslojenost jezika”. u: Andrijašević, Marin; Vrhovac, Yvonne ur. Trenutak sadašnjosti u učenju jezika. Zagreb: Hrvatsko društvo za primijenjenu lingvistiku. str. 129. OCLC 439318422. SSRN 3434564. CROSBI 447527. (NSK). Pristupljeno 2019-05-24.

[2] Taylor, C. (2008). What is corpus linguistics? What the data says, ICAME Journal 32:179–200.

[McEnery,_T._2001-3] 3,0 ^3,1 ^3,2 McEnery, T.; Wilson, A. (2001).Corpus Linguistics.Edinburgh University Press.

[:0-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 ^4,7 ^4,8 O’Keeffe, A.; McCarthy, M. (ur.). (2010). The Routledge Handbook of Corpus Linguistics. Abingdon: Routledge.

[:1-5] 5,0 ^5,1 ^5,2 Kennedy, G. (1998). An Introduction to Corpus Linguistics. London: Adison Wesley Longman.

[6] Meyer, C. F. (2004). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

[1]

[2]

[3]

[4]

[5]

[6]